Transformer 位置编码

苏神-让研究人员绞尽脑汁的Transformer位置编码

绝对位置编码

绝对位置编码,也即将位置向量作为新的一维输入,在输入的第k向量xk中加入位置向量pk变为 xk+pk

训练式

很显然,绝对位置编码的一个最朴素方案是不特意去设计什么,而是直接将位置编码当作可训练参数,比如最大长度为512,编码维度为768,那么就初始化一个 12×768 的矩阵作为位置向量,让它随着训练过程更新。现在的BERT、GPT等模型所用的就是这种位置编码。
同时因为《层次分解位置编码,让BERT可以处理超长文本》,层次分解让绝对位置编码的外推性得到了fix: